表结构识别是文档图像分析域的关键部分。它的困难在于需要同时解析每个单元的物理坐标和逻辑指标。但是,现有的方法很难实现这两个目标,尤其是当表分裂线被模糊或倾斜时。在本文中,我们提出了一种基于端到端变压器的表面结构识别方法,称为信任。变压器由于其全局计算,完美的内存和并行计算而适合表结构识别。通过引入基于新型变压器基于查询的新型分裂模块和基于顶点的合并模块,表结构识别问题被脱钩到两个关节优化子任务中:多面向的表行/列分拆分和表格格里合并。基于查询的拆分模块通过变压器网络从长期依赖项中学习了强烈的上下文信息,准确预测了多个面向的表行/列分离器,并相应地获得了表的基本网格。基于顶点的合并模块能够在相邻的基本网格之间汇总局部上下文信息,从而能够合并准确属于同一跨越单元的基本束。我们对包括PubTabnet和Connthtable在内的几个流行基准进行实验,我们的方法实现了新的最新结果。特别是,信任在PubTabnet上以10 fps的速度运行,超过了先前的方法。
translated by 谷歌翻译